AI资讯新闻榜单内容搜索-Evaluation

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Evaluation

红杉 xbench：AI 去药企做实习，遥遥领先了人类

红杉 xbench：AI 去药企做实习，遥遥领先了人类

红杉 xbench：AI 去药企做实习，遥遥领先了人类

xbench，就是红杉自己弄的那个中立评测lab，刚刚又整了个新活：让 AI 做药企的数据分析，跟人类实习生比个高低，然后遥遥领先的赢了

来自主题: AI技术研报

6571 点击 2026-05-19 10:30

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

智谱GLM-5.1，突然上线！别的没再多说，只是默默甩出Coding Evaluation评测结果——在编程能力上相比上一代GLM-5直接飙升近10分。甚至嘛，距全球最强编程模型Claude Opus 4.6，也就只有2.6分之差？？

来自主题: AI产品测评

8920 点击 2026-03-29 11:06

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

9610 点击 2025-12-08 14:13

AI“压力面”，DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”，DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”，DeepSeek性能暴跌近30% | 清华&上海AI Lab

给AI一场压力测试，结果性能暴跌近30%。来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

来自主题: AI技术研报

10632 点击 2025-07-21 10:44

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好？最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣，能告诉你模型到底强在哪、弱在哪，适不适合你的需求。

来自主题: AI技术研报

7921 点击 2025-07-18 11:02

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

6680 点击 2024-10-14 15:46

上一页当前第1页,共1页下一页